Linear regression là gì? Các công bố khoa học về Linear regression

Linear regression is a statistical method used to model relationships between a dependent variable and one or more independent variables, forming the basis for predictive analysis. Developed in the 19th century, its core involves fitting a line through data points via a linear equation. Types include simple and multiple linear regression, each with specific assumptions like linearity and independence. It's widely applied in economics, marketing, biology, and finance. Despite its benefits in simplicity and ease of interpretation, linear regression is sensitive to outliers and less suitable for modeling non-linear relationships.

Linear Regression: An Introduction

Linear regression is a fundamental statistical method used to model the relationship between a dependent variable and one or more independent variables. This technique is widely used in predictive analysis and is one of the simplest types of predictive models. It lays the groundwork for understanding more complex techniques in data science and machine learning.

History of Linear Regression

The concept of linear regression dates back to the early 19th century. Sir Francis Galton introduced the idea of regression, and his work was further developed by Karl Pearson. However, it was the French mathematician Adrien-Marie Legendre who formally introduced the method of least squares in 1805, which is a fundamental component of linear regression modeling.

The Mathematics Behind Linear Regression

At its core, linear regression involves fitting a line (or hyperplane in higher dimensions) through a set of data points. The line is described by the linear equation:

y = β0 + β1x1 + β2x2 + ... + βnxn + ε

Where:

  • y is the dependent variable,
  • β0 is the y-intercept,
  • β1, β2, ..., βn are the coefficients for the independent variables,
  • x1, x2, ..., xn are the independent variables,
  • ε is the error term.
Each coefficient represents the change in the dependent variable resulting from a one-unit change in the corresponding independent variable, holding all other variables constant.

Types of Linear Regression

Linear regression can be categorized into two main types:

  • Simple Linear Regression: Deals with predicting a dependent variable using a single independent variable.
  • Multiple Linear Regression: Involves two or more independent variables to predict the dependent variable.

Assumptions of Linear Regression

To properly use linear regression, several key assumptions must be satisfied:

  • Linearity: The relationship between the dependent and independent variables is linear.
  • Independence: Observations are independent of each other.
  • Homoscedasticity: Constant variance of the errors.
  • Normality: Errors of the model should be normally distributed.
  • No multicollinearity: Independent variables should not be highly correlated with each other.

Applications of Linear Regression

Linear regression is applied in various domains such as:

  • Economics: Modeling economic growth, demand forecasting.
  • Marketing: Predicting consumer spending, pricing analysis.
  • Biology: Estimating population growth, analyzing bio-data.
  • Finance: Risk management, stock price prediction.

Limitations of Linear Regression

While linear regression is a powerful tool, it also has limitations:

  • Sensitivity to outliers: Outliers can disproportionately affect the model.
  • Assumption violations: Violations of model assumptions can lead to inaccurate predictions.
  • Linear Relationships: It is unsuitable for modeling non-linear relationships.

Conclusion

Linear regression remains a vital part of statistical analysis in various fields due to its simplicity and interpretability. Although it has limitations and assumptions that require careful consideration, understanding linear regression provides a solid foundation for more complex predictive modeling techniques.

Danh sách công bố khoa học về chủ đề "linear regression":

The Collinearity Problem in Linear Regression. The Partial Least Squares (PLS) Approach to Generalized Inverses
Society for Industrial & Applied Mathematics (SIAM) - Tập 5 Số 3 - Trang 735-743 - 1984
CONFRONTING MULTICOLLINEARITY IN ECOLOGICAL MULTIPLE REGRESSION
Ecology - Tập 84 Số 11 - Trang 2809-2815 - 2003
Hồi Quy Tuyến Tính Trong Nghiên Cứu Ngư Nghiệp
Canadian Science Publishing - Tập 30 Số 3 - Trang 409-434 - 1973
Một số tình huống hồi quy trong sinh học cá và ngư nghiệp được xem xét, trong đó cả hai biến đều chịu lỗi đo lường, hoặc biến đổi nội tại, hoặc cả hai. Đối với hầu hết các tình huống này, một đường hồi quy chức năng thích hợp hơn so với các hồi quy dự đoán thông thường thường được sử dụng, do đó nhiều ước tính hiện nay đang sử dụng có một mức độ nào đó bị lệch. Ví dụ bao gồm (1) ước tính số mũ trong mối quan hệ trọng lượng/chiều dài, nơi mà hầu như tất cả các giá trị công bố là hơi nhỏ; và (2) ước tính hồi quy của logarit tỷ lệ trao đổi chất trên trọng lượng cơ thể log của cá, nơi mà con số trung bình tốt nhất hóa ra là 0,85 thay vì 0,80. Trong tình huống rất phổ biến nơi phân phối của các biến không phải là chuẩn và không có kết thúc mở, hồi quy chức năng là phù hợp nhất thậm chí cho cả mục đích dự đoán. Hai cách để ước tính hồi quy chức năng là (1) từ trung bình số học của các đoạn trong phân phối, khi tính toán đối xứng; và (2) từ trung bình hình học của một hồi quy dự đoán và nghịch đảo của hồi quy kia. Hồi quy GM đưa ra một ước tính chính xác hơn khi nó có thể được áp dụng; nó phù hợp trong mọi tình huống mà biến động chủ yếu là nội tại trong vật liệu (ít lỗi đo lường), hoặc nơi mà phương sai đo lường xấp xỉ tỷ lệ với tổng phương sai của mỗi biến; và nó là ước tính tốt nhất có sẵn cho chuỗi ngắn với biến động vừa hoặc lớn ngay cả khi không có điều kiện nào trong số này áp dụng. Khi lỗi trong X chỉ phát sinh từ quá trình đo lường, hồi quy dự đoán của Y trên X cũng là hồi quy chức năng nếu các quan sát của X không được thực hiện ngẫu nhiên nhưng có giá trị được thiết lập trước, như thường thấy trong công việc thực nghiệm. Các cách sử dụng của các hồi quy khác nhau được tóm tắt trong Bảng 8.
Linear Regression Limit Theory for Nonstationary Panel Data
Econometrica - Tập 67 Số 5 - Trang 1057-1111 - 1999
Linear Regression Analysis with Fuzzy Model
Institute of Electrical and Electronics Engineers (IEEE) - Tập 12 Số 6 - Trang 903-907 - 1982
An R-squared measure of goodness of fit for some common nonlinear regression models
Journal of Econometrics - Tập 77 Số 2 - Trang 329-342 - 1997
Variable Importance Assessment in Regression: Linear Regression versus Random Forest
American Statistician - Tập 63 Số 4 - Trang 308-319 - 2009
The number of subjects per variable required in linear regression analyses
Journal of Clinical Epidemiology - Tập 68 Số 6 - Trang 627-636 - 2015
Tính chất của các bài kiểm tra phụ thuộc không gian trong mô hình hồi quy tuyến tính
Geographical Analysis - Tập 23 Số 2 - Trang 112-131 - 1991
Dựa trên một số lượng lớn các thí nghiệm mô phỏng Monte Carlo trên một mạng lưới đều đặn, chúng tôi so sánh các tính chất của kiểm tra Moran's I và kiểm tra nhân tử Lagrange đối với phụ thuộc không gian, tức là đối với cả tự tương quan lỗi không gian và biến phụ thuộc được suy rộng không gian. Chúng tôi xem xét cả độ chệch và sức mạnh của các bài kiểm tra cho sáu cỡ mẫu, từ hai mươi lăm đến 225 quan sát, cho các cấu trúc khác nhau của ma trận trọng số không gian, cho nhiều phân bố lỗi bên dưới, cho các ma trận trọng số được chỉ định sai, và cho tình huống khi có hiệu ứng ranh giới. Kết quả cung cấp chỉ số về các cỡ mẫu mà các tính chất tiệm cận của các bài kiểm tra có thể được xem là có hiệu lực. Chúng cũng minh họa sức mạnh của các bài kiểm tra nhân tử Lagrange để phân biệt giữa phụ thuộc không gian thực chất (trễ không gian) và phụ thuộc không gian như một phiền nhiễu (tự tương quan lỗi).
#Moran's I #nhân tử Lagrange #phụ thuộc không gian #tự tương quan lỗi #trễ không gian #ma trận trọng số không gian #mô phỏng Monte Carlo #mô hình hồi quy tuyến tính #hiệu ứng ranh giới
Tổng số: 2,232   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10